home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1995 April / Internet Tools.iso / infoserv / www / cern / doc / www-talk.archive.Z / www-talk.archive / text0020.txt < prev    next >
Encoding:
Text File  |  1992-11-30  |  9.8 KB  |  260 lines

  1. WWW folks may like to comment on this, posted to wais-talk and
  2. cni-arch... Sorry if you've already read it there !
  3.  
  4. -- Jean-Francois
  5.  
  6. ------- Start of forwarded message -------
  7.  
  8. From: connolly@pixel.convex.com
  9. To: wais-talk@Think.COM
  10. Cc: cni-arch@uccvma.BITNET
  11. Subject: Re: Document identifiers 
  12. Date: Mon, 02 Dec 91 01:32:36 CST
  13.  
  14.  
  15. >The Coalition for Networked Information
  16. >Architectures & Standards Working Group
  17. >
  18. I don't like the direction this technology is headed.
  19.  
  20. What is the desired functionality of these identifiers?
  21.  
  22. If you want an identifier that uniquely identifies a file,
  23. why not use a checksum, such as returned by the unix
  24. sum command?
  25.  
  26. Let's see how a checksum solves these issues, and then see
  27. what functionality I'd like to see in stead.
  28.  
  29. >1. The need for identifiers, as distinct from location
  30. >information. This is best handled by a number (much like an
  31. >ISSN or ISBN), but the system must accomodate multiple
  32. >number-assigning agencies. Thus, the identifier is proposed
  33. >as <numbering-authority>,<identifier> where numbering
  34. >authorities are registered.
  35. >
  36. There's no location info in a checksum. Done deal.
  37.  
  38. >2. The pointers must be representable as an ASCII string to
  39. >facilitate inclusion in a wide range of material, including
  40. >documents and electronic mail.
  41. >
  42. Check.
  43.  
  44. >3. Location information must support multiple Locations for
  45. >the document, including the "location of record" and one or
  46. >more redistribution centers, local caches, etc. The means of
  47. >specifying a location should be sufficiently general to span
  48. >at least the set of networks covered under the Internet
  49. >Domain Naming system (DNS).
  50. >
  51. Ah! Now we want to be able to get location info out of the
  52. identifier. Checksums don't help. Well, in fact, they help
  53. no more or less than <numbering authority>-<id> helps, unless
  54. a numbering authority implies a location. I'm not clear on
  55. this at all.
  56.  
  57. >4. Objects may be retrieved by a variety of access
  58. >mechanisms from servers, including FTP, LISTSERV, Z39.50,
  59. >and perhaps FTAM and SQL-based database access, as well as
  60. >requests for paper copies. The location information should
  61. >be sufficiently general to include information about these
  62. >different types of access techniques, and extensible to
  63. >include new access methods that may develop in future.
  64. >
  65. Hmmm... now it looks like the doc id should tell how to
  66. get the document... but not exactly. What we're relly looking
  67. for is some client software that interprets these numbers
  68. and queries servers. Checksums look as good as anything again.
  69.  
  70. >5. Perhaps the location identifier should include some
  71. >information about the format and size of the object; on the
  72. >other hand, perhaps it should not. Discussion?
  73. >
  74. Checksums do not contain type/size info. If that's what we want,
  75. the checksum idea is no good.
  76.  
  77. >6. It should be possible to further qualify a reference to a
  78. >"sublocation" within an object (which would have meaning
  79. >only to the server that houses it). This is needed, for
  80. >example, for hypertext-type links.  Such a sublocation might
  81. >be the 25th paragraph of a text, for a hypertext-type
  82. >pointer.
  83. >
  84. Now we raise the question: just what does a document identifier
  85. identify? Until this item, it appeared that a document was
  86. a file. Now it's not so clear. Perhaps a document should be anything
  87. from a single character to a paragraph to a file to a chapter to
  88. a book to an encyclopedia to a library. That would be a good trick.
  89. Is that what we're after?
  90.  
  91. >7. Indirection should be supported. In other words, one
  92. >should be able to format the location as the name of a
  93. >server that can be passed the identifier and which would
  94. >return location information. The protocol mechanism(s) for
  95. >doing this need to be specified as well.
  96. >
  97. Ah. Now the objectives of the location info become more clear.
  98. Sounds to me like the location is a TCP connection, or enough
  99. information on how to establish one.
  100.  
  101. >8. While full rights and permissions data would seem to be
  102. >outside the scope of such a pointer, it might be useful to
  103. >include at least some basic information. This might be an
  104. >indication that the object is not copyrighted and can be
  105. >freely distributed, that it is copyrighted but can be freely
  106. >distributed, that it can be redistributed for noncommercial
  107. >use, or that restrictions apply to redistribution. Also, it
  108. >might make sense to include a pointer of some sort (an
  109. >e-mail address? a host address?) for further information
  110. >about rights.
  111. >
  112. Ack! This stuff seems totally orthogonal to the rest of the
  113. stuff, but in practice, this looks like a crucial issue.
  114. I don't have any good ideas here.
  115.  
  116. >9. Perhaps there might be some type of checksum that can be
  117. >calculated on the retrieved object to ensure that the
  118. >pointer and the object have not gotten out of synch?
  119. >
  120. This is what sparked the checksum idea.
  121.  
  122.  
  123. My response to all this:
  124.  
  125. I don't think we need [yet another] document identifier format.
  126. If you want location info, use an internet address; if you want
  127. data integrity, use a checksum; if you want format, we are lacking
  128. a standard here; if you want copyright info, ditto;
  129.  
  130. What we need is some nifty client software to glue all the parts
  131. together. I guess there is some room for standardization, but please:
  132.     LET'S LEVERAGE EXISTING SYSTEMS!
  133.  
  134. Where these systems are robust, I think we should support them. I'd
  135. also like to see support for ad-hoc document identifiers. Here's
  136. an example to clarify:
  137.  
  138. I'm browsing some email, netnews, or a README file from somewhere.
  139. I see a reference to more info:
  140.  
  141.     A full discussion of the BLURF protocol is available via
  142.     anonymous FTP from frob.mit.edu as blurf-proto.tex
  143.     in the directory /pub/protos.
  144.  
  145. I select some or all of that text, and I click one of the buttons
  146. in my document retrieval tool:
  147.  
  148.     make ftp id --    extract the relevant information and display
  149.             a well-formed identifier acceptable to some
  150.             existing FTP client (I've heard of something
  151.             called ange FTP. Another idea is to make
  152.             a shell script that would do the retrieval:
  153. ftp frob.mit.edu
  154. cd /pub/protos
  155. get blurf-proto.tex
  156.             )
  157.  
  158.     make wais id --    get enough info to make a WAIS doc ID
  159.             [scrap this unless it stabilizes]
  160.     make WWW id --    same thing for World Wide Web HTTP addresses.
  161.     make NNTP id --    same thing for USENET news message id's.
  162.     make LISTSERV id --    you get the idea
  163.             Rather than making up a new format, these id's
  164.             are instructions to EXISTING clients to retrieve
  165.             a document.
  166.  
  167.     verify id --    connect to the necessary server(s) and verify
  168.             that the id references an existing document.
  169.             Append to the id a "verification date," which
  170.             is the last time a server acknowledged the
  171.             existence of the document.
  172.  
  173.     get id info --    connect to the necessary server(s) and get about
  174.             1K of miscellaneous info: document size in bytes,
  175.             date of last modification, available formats,
  176.             short summary, etc.
  177.  
  178.     retrieve raw --    connect and retrieve the document in whatever
  179.             format is convenient to the server, e.g.
  180.             a compressed tar archive of C and troff sources.
  181.  
  182.     retrieve text --    connect and retrieve the document as
  183.             plain text [defined, e.g. as the body of an 
  184.             RFC-822 mail message]
  185.  
  186.     retrieve... --    the user or the supporting client software
  187.             specifies the supported information formats,
  188.             (compression schemes, archiving formats,
  189.             image file formats, typesetting languages)
  190.             the client and the server hash over their options,
  191.             [perhaps with user intervention]
  192.             and the server sends the most desireable version
  193.             of the document it has available.
  194.  
  195. If we add a few buttons, we begin to encompass the scope of many existing
  196. systems:
  197.  
  198.     expand --    change the doc id to reference the "document"
  199.             containing it. In the ftp example, rather than
  200.             "get blurf.tex," it would have "ls."
  201.             Click again and get "cd ..; ls."
  202.             Obviously, this operation depends on the access
  203.             mechanism. For WAIS documents, the expansion of
  204.             a document is the source that contains it.
  205.  
  206.     select --    narrow the document to some of its parts. For a
  207.             text file, select some of the characters/paragraphs
  208.             for a WAIS source, select some of the documents.
  209.             For a WWW node, select a neighboring node. For
  210.             a directory, select some files.
  211.  
  212. I guess my point is, let's think about how folks are going to use this
  213. document referencing technology, and let's see how well existing systems
  214. meet these needs.
  215.  
  216. I guess some groups have come to the conclusion that the existing systems
  217. don't cut it. I'm beginning to agree.
  218.  
  219. I guess we'd all agree that we should decide how we're going to use these
  220. doc id's and let that drive the design of the format. i.e. Let's decide
  221. on the methods of this object before we decide on its representation.
  222.  
  223. [an idea: for syntax, the WAIS folks chose LISP. What about using
  224. something akin to RFC-822 syntax? I think it works well: define a bunch
  225. of standard headers; require some, allow some, disregard others; allow
  226. free-form text in the body. examples:
  227.  
  228. ISBN: 0-13-590126-X
  229.     or
  230. MESSAGE-ID: usenet-thing
  231.     or
  232. FTP-HOST:  frob.mit.edu
  233. USER:    anonymous
  234.     or
  235. WAIS-PORT:    8001@think.com
  236.  
  237.  
  238. This would allow us to leverage all the email technology out there, plus 
  239. the emerging multi-part mail format.
  240. (and it would allow me to use PERL on these beasties! :-)
  241. ]
  242.  
  243. Another thing I hope folks are keeping in mind: I don't think any one
  244. client can meet the information-retrieval needs of everybody. We need
  245. to support multiple platforms, for one thing. But I hope other folks are
  246. considering using mulitple clients at the same time! I'd like to use
  247. one slick X-windows front end to the whole ball of wax, in some ways like
  248. emacs does for programming, and in some ways like the mac GUI does for
  249. office-productivity applications. But I'm going to be using POST mail
  250. servers, NNTP servers, WAIS servers, FTP servers, etc, and I don't
  251. expect one client to do it all. The crucial trick is to make all this
  252. intuitive and interactive, i.e. to support hypertext browsing, fulltext
  253. retrieval, USENET news reading, and maybe email correspondence, all in
  254. one environment. Let's get started!
  255.  
  256. Dan
  257.  
  258. ------- End of forwarded message -------
  259.  
  260.